Apprentissage actif dans les processus décisionnels de Markov partiellement observables L'algorithme MEDUSA
نویسندگان
چکیده
RÉSUMÉ. Nous cherchons à adapter le cadre des Processus Décisionnels de Markov Partiellement Observables (POMDP) aux réalités de la robotique, pour établir une méthode qui effectue une prise de décision et un apprentissage optimaux lorsque l’agent ne dispose que d’un modèle approximatif d’un environnement non stationnaire. La méthode suppose l’existence d’un opérateur extérieur (oracle), capable d’observer et de révéler l’état caché du POMDP pendant la phase d’apprentissage. Pour résoudre cette problématique de manière approchée, nous proposons l’algorithme MEDUSA, qui confronte le modèle initial à l’expérience directe, et avec l’aide d’un nombre restreint de requêtes, parvient à obtenir rapidement le comportement optimal. Nous montrons comment MEDUSA prend en compte des environnements non stationnaires, et comment il peut s’accomoder de requêtes imprécises.
منابع مشابه
Apprentissage par renforcement dans le cadre des processus décisionnels de Markov factorisés observables dans le désordre. Étude expérimentale du Q-Learning parallèle appliqué aux problèmes du labyrinthe et du New York Driving
RÉSUMÉ. Cet article présente les résultats expérimentaux obtenus avec une architecture originale permettant un apprentissage générique dans le cadre de processus décisionnels de Markov factorisés observables dans le désordre (PDMFOD). L’article décrit tout d’abord le cadre formel des PDMFOD puis le fonctionnement de l’algorithme, notamment le principe de parallélisation et l’attribution dynamiq...
متن کاملApprentissage par renforcement pour les processus décisionnels de Markov partiellement observés Apprendre une extension sélective du passé
We present a new algorithm that extends the Reinforcement Learning framework to Partially Observed Markov Decision Processes (POMDP). The main idea of our method is to build a state extension, called exhaustive observable, which allow us to define a next processus that is Markovian. We bring the proof that solving this new process, to which classical RL methods can be applied, brings an optimal...
متن کاملPrise de décision en temps-réel pour des POMDP de grande taille
RÉSUMÉ. Cet article présente une méthode d’approximation pour les processus décisionnels de Markov partiellement observables (POMDP) qui est basée sur une recherche en profondeur pour la planification dans un environnement temps-réel dynamique. L’idée de base de notre approche, appelée RTBSS (Real-Time Belief Space Search), est d’éviter de calculer des politiques complètes pour des POMDPs. Cett...
متن کاملApprentissage par Renforcement : Au delà des Processus Décisionnels de Markov (Vers la cognition incarnée)
dernières années dans des contextes mono et multi-agents, mais aussi robotique. L'analyse de ces travaux et de l'état de l'art du domaine me conforte dans l'idée que la principale diculté pour l'agent est bien celle de trouver des représentations adaptées, utiles et pertinentes. J'argumente que l'on se retrouve face à une problématique fondamentale de la cognition, intimement liée aux problèmes...
متن کاملApprentissage actif pour l'annotation de documents
RÉSUMÉ. Dans le cadre du projet LegDoc au Centre Européen de Recherche de Xerox, nous avons développé des composants pour l’annotation sémantique de documents semi-structurés. Alors que certaines entités sémantiques ont une forme régulière et peuvent être facilement extraites, d’autres collections plus complexes et hétérogénes nous ont amenés à déployer des méthodes d’apprentissage automatique....
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- Revue d'Intelligence Artificielle
دوره 21 شماره
صفحات -
تاریخ انتشار 2007